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摘 要 数据 缺失 在 测验 中 经 常 发 生 ， 认 知 诊断 评 佑 也 不 例外 , 数据 缺失 会 导致 诊断 结果 的 偏差 。 首先, 通过 模拟 
人 研究 在 多 种 实验 条 件 下 比较 了 常用 的 缺失 数据 处理 方法 。 结 果 表明 : (1) 缺 失 数据 导致 估计 精确 性 下 降 ,， 随 着 人 数 


与 题目 数量 减少 、 


缺失 率 增 大 、 题 目 质量 降低 ,所 有 方法 的 PCCR JS FM, Bias 绝对 值 和 RMSE 均 上 升 。(2) 估 计 


题目 参数 时 , EM 法 表现 最 好 ,其 次 是 ML FIML 和 ZR 法 表现 不 稳定 。(3) 估 计 被 试 知 识 状态 时 , EM 和 FIML 表现 
最 好 , MI 和 ZR 表现 不 稳定 。 其 次 , 在 PISA2015 实证 数据 中 进一步 探索 了 不 同方 法 的 表现 。 综 合 模 拟 和 实证 研究 


结果 ,推荐 选用 EM 或 FIML 法 进行 缺失 数据 处 理 。 
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1 3| 言 


认 知 诊断 评估 (Cognitive Diagnosis Assessment, 
CDA) 是 最 新 一 代 的 心理 与 教育 测评 技术 ,可 以 对 
个 体 认 知 过 程 、 加 工 技能 或 知识 结构 进行 诊断 与 评 
ffo Æ CDA 实施 过 程 中 , 无 法 避免 出 现 数据 的 缺 
失 。 已 有 人 研究 表明 ， 随 着 数据 缺失 率 的 增 大 ,题目 
参数 的 估计 精度 及 被 试 知 识 状 态 (Knowledge State, 
KS) 的 判 准 率 均 会 下 降 ， 而 选用 不 同 的 缺失 值 处 理 
方法 也 会 对 模型 拟 合 与 参数 估计 市 来 不 同 影响 (Dai, 
2017; Pan & Zhan, 2020)。 因 此 , 在 实际 CDA 测验 
中 需要 重视 缺失 数据 问题 ,并 选用 合适 方法 处 理 ， 
以 提升 诊断 精度 及 题目 参数 估计 精度 。 

目前 ， 缺 失 数据 的 处 理 方法 主要 包括 两 大 类 : 
一 是 传统 处 理 方 法 ， 如 具有 代表 性 的 零 奉 换 (Zero 
Replace, ZR) 方 法 。ZR 法 操作 便捷 ,在 处 理 大 规模 
数据 时 非常 快速 , 在 绝 大 多 数 统计 软件 上 均 可 实现 ， 
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并 且 不 会 造成 被 试 的 大 量 流失 。 因 此 , ZR 是 研究 者 
经 党 选用 的 方法 之 一 , 在 CDA 中 也 有 使 用 (Jang， 
2009; Lee et al., 2011), H. ZR 方法 目前 被 较 多 大 型 
教育 评估 ,如 PISA, TIMSS, PIRLS 所 采纳 (Xiao & 
Bulut, 2020)。 虽 然 传 统 方法 比较 便捷 ,但 会 导致 统 
计 效 力 和 参数 估计 精度 的 下 降 ， 因此 有 研究 者 并 不 
建议 使 用 (Dong & Peng, 2013; Enders, 2010)。 第 二 
类 是 基于 模型 的 处 理 方 法 ,近年 来 ， 随 着 统计 技术 
不 断 发 展 ， 基 于 模型 的 处 理 方法 相继 被 提出 ， 并 被 
证 明 其 处 理 效果 优 于 传统 方法 ， 因 此 这 些 方法 越 来 
越 受 到 重视 。 其 中 , 极 大 似 然 估 计 (Maximum 
Likelihood Estimation, MLE) 和 MI (Multiple Imputation, 
MI) 方 法 的 应 用 最 广泛 (Xiao & Bulut, 2020; Schafer 
& Graham, 2002)。MLE 是 通过 加 工 似 然 函 数 对 缺 
失 数 据 进 行 处 理 , 包括 期 望 最 大 化 算法 (Expectation- 
Maximization algorithm，EM) 和 全 息 极 大 似 然 估 计 
方法 (Full Information Maximum Likelihood, FIML). 
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对 于 FIML、EM 和 MI 三 种 方法 , 均 有 研究 证 明 其 
表现 优 于 传统 方法 (Graham，2009; Jeličić et al., 
2010; van Buuren, 2018; Wothke, 2000)。 本 文 所 采用 
方法 的 具体 介绍 请 参见 2.2 部 分 。 

CDA 中 探讨 缺失 值 及 其 处 理 的 研究 中 ,一 部 
分 研究 者 仅 探 讨 了 缺失 数据 对 诊断 结果 的 影响 ， 如 
Xu 和 von Davier(2006) 的 人 研究 表明 : 当 数 据 缺 失 率 
达 50% 时 ， 认 知 诊断 模型 仍 能 得 到 较 好 的 估计 结 
果 。 但 该 研究 未 考虑 不 同 的 缺失 机 制 ， 且 仅 考 虑 了 
缺失 数据 对 参数 估计 的 影响 而 未 考虑 缺失 数据 处 
理 方 法 本 身 对 结果 产生 的 影响 。Pan 和 Zhan (2020) 
在 纵 癌 诊断 中 探讨 了 缺失 数据 对 诊断 精度 的 影响 ， 
也 得 到 相似 的 研究 结果 。Dai (2017) 首 次 探讨 了 不 
同 的 缺失 值 处 理 方 法 在 CDA 中 的 表现 ,作者 在 
DINA (Deterministic Inputs, Noisy “and”Gate) 模 型 
(Junker & Sijtsma, 2001) 基 础 上 上， 比较 EM 和 一 些 传 
统 方法 的 表现 ,结果 表明 : 在 估计 被 试 KS 时 , EM 
在 多 数 条 件 下 表现 较 好 ; 在 题目 参数 估计 时 , EM 
和 传统 方法 的 表现 随 条 件 改变 而 各 不 相同 。 

尽管 已 有 上 述 文献 研究 了 CDA 中 的 缺失 数据 
问题 , 但 过 往 人 研究 首先 未 曾 考 虑 在 缺失 数据 分 析 领 
域 中 表现 较 好 、 应 用 广泛 的 MI 和 FIML 方法 。 其 
H, MI 法 已 被 证 明 其 表现 较为 优异 和 稳健 (van 
Buuren, 2018; Schafer & Graham, 2002)， 且 于 近年 
来 被 广泛 用 于 缺失 数据 的 处 理 中 (Leacy et al., 2017; 
Rezvan et al., 2015), FIML 采用 “一 步 式 ”操作 ， 直 
接 使 用 融 缺 失 值 的 作答 数据 进行 模型 拟 合 ， 比 其 它 
基于 模型 的 方法 更 便捷 (Graham，2009; Schafer & 
Graham, 2002)， 此 外 ,基于 模型 的 方法 表现 更 加 出 
色 , 但 在 不 同 研 究 背 景 下 的 表现 有 较 大 差异 ,， 取决 
于 具体 的 模型 、 数 据 和 条 件 (Newman,，2003; Dai, 
2017)。 因 此 ， 有 必要 在 CDA 中 系统 地 探索 这 些 基 
于 模型 方法 的 表现 , 并 与 传统 方法 进行 比较 。 

基于 系统 全 面 比 较 缺 失 值 处 理 方 法 这 一 主旨 ， 
本 研究 还 做 了 如 下 推进 : (1) Dai (2017) 采 用 的 
DINA 属于 简约 模型 ， 它 的 非 补 偿 模型 特点 往往 与 
现实 测验 情景 不 符 。 而 饱和 模型 ， 如 GDINA 
(Generalized Deterministic Inputs, Noisy “and” Gate) 
模型 (de la Torre, 2011) 等 受到 了 较 多 关注 ， 并 应 用 
于 多 数 人 研究 中 (Bai，2020; mm hse 等 ，2018)， 
GDINA 不 仅 包 含 属性 主 效应 , 还 将 属性 间 交 互 作 
用 考虑 在 内 ,更 加 符合 现实 情况 ， 对 实际 测验 拟 合 
更 佳 , 对 GDINA 及 DINA 模型 的 介绍 及 含义 参见 
2.1 部 分 。(2) 现 有 诊断 测验 中 比较 缺失 数据 处 理 方 
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法 的 研究 仅 使 用 了 模拟 研究 , 但 模拟 人 研究 的 生态 效 
度 如 何 并 未 在 实证 数据 中 得 到 检验 ， 因 此 结果 是 否 
能 进一步 推 至 实际 情况 有 待 进一步 验证 。(3) 除 了 
MI 和 FIML， 本文 还 选取 了 传统 方法 中 具有 代表 性 
的 ZR 法 , 以 及 插 补 后 可 以 得 到 无 偏 估计 结果 日 在 
处 理 CDA 及 其 它 测验 类 型 的 数据 缺失 值 时 ， 表现 
较为 优异 的 EM 方法 (Dai, 2017; Lin, 2010; Newman, 
2003)。 

综 上 ,本 研究 的 主要 目的 是 将 MI 和 MLE 法 引 
A CDA 中 ,对 不 同 缺失 数据 处 理 方 法 进行 全 面 比 
较 , 并 提出 实践 中 处理 缺失 数据 的 建议 。 下 文 首先 
对 认 知 诊断 模型 和 各 缺失 数据 处 理 方法 进行 简单 
介绍 。 其 次 , 通过 模拟 研究 ， 在 不 同 实验 条 件 下 探 
究 了 各 缺失 数据 处 理 方法 的 表现 。 第 三 ， 以 
PISA2015 年 基于 计算 机 测评 中 的 数学 素养 为 例 ， 
比较 不 同 缺 失 数 据 处 理 方法 在 实证 数据 中 的 效果 ， 
验证 不 同方 法 的 生态 效 度 。 最 后 ,我 们 讨论 了 研究 
结果 及 未 来 研究 的 发 展 方向 。 


2 认 知 诊断 模型 及 缺失 数据 介绍 
2.1 认 知 诊断 模型 


本 人 研究 所 采用 的 诊断 模型 为 GDINA， 其 表达 
形式 见 公式 (]): 


P(Y; =1|a;) = Õ jo +) no + 
k=l 


K; Kj- K) 
k'=k+1 k=1 k=1 


在 GDINA 模型 中 , HAERE H EW 


of 个 潜 类 别 , HEP K Su , ANA j 所 考察 
k=l 
的 属性 数量 ，gj =1 表示 题目 j 考察 了 属性 上 a; = 
(Cj jg) 为 在 被 试 属性 向量 wy = (Qj. Ogg, ) 
基础 上 ， 仅 保留 题目 j 所 考察 属性 ,形成 的 地 雹 
(collapse) 属 性 向 量 (天 ) 为 测验 考察 的 所 有 属性 个 
数 )。5;, 为 题目 j 的 截 距 项 ， 即 当 被 试 示 掌握 题目 
所 考察 属性 时 正确 作答 的 基线 参数 。 6x 为 属性 k 
的 主 效应 ， 表 示 当 被 试 仅 掌 握 某 一 属性 时 ,对 正 
确 作答 概 率 的 影响 。5 必 ' 是 题目 7 在 属性 上 和 大 上 
的 二 阶 交互 效应 ， 表 示 同 时 掌握 两 个 属性 对 正确 作 
答 概率 的 影响 。 Oink’ 为 题目 7 在 属性 1 27, K? 


J 
上 的 最 高 阶 交 互 作用 ,表示 掌握 了 题目 7 考察 的 所 
有 属性 时 ， 对 正确 作答 概率 的 影响 。 其 中 ， 截 距 项 
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So 衡 为 非 负 数 ， 主 效应 项 为 非 负 数 ， 而 交互 作用 
项 可 以 取 任 意 值 。 

GDINA 模型 属于 饱和 模型 对 GDINA 进行 约 
束 ， 即 仅 保 留 公 式 (1) 中 的 截 距 项 和 最 高 阶 交 互 项 ， 
便 可 得 到 DINA 模型 : P(Y,=1|@j)=6jo+ 


K 
Savas | ex。 其 含义 为 当 且 仅 当 被 试 i 掌握 了 
| k=l 


题目 j 考核 的 所 有 属性 时 ， 该 被 试 倾向 于 答对 这 道 
题目 ; 而 当 被 试 1 未 掌握 题目 j 考核 的 所 有 属性 时 ， 
即 认 为 该 被 试 倾 向 于 答 错 这 着 题目 。 
2.2 ”缺失 数据 机 制 介 绍 

缺失 数据 可 以 通过 缺失 机 制 进行 分 类 ，Rubin 
(1976) 定 义 了 三 种 缺失 的 数据 机 制 : 完全 随机 缺失 
(missing completely at random, MCAR), 随机 缺失 
(missing at random，MAR) 和 非 随机 缺失 (missing 
not at random, MNAR)» Æ MCAR 机 制 下 ,数据 的 
缺失 是 完全 随机 的 , 不 依赖 于 任何 变量 ， 即 不 论 其 
它 变 量 ( 如 题目 难度 、 区 分 度 、 被 试 能 力 值 等 ) 如 何 
变化 , 数据 产生 缺失 的 概率 都 是 均等 的 ; 在 MAR 
机 制 下 ,数据 缺失 的 概率 并 不 是 随机 的 , 会 受到 数 
据 集中 已 观测 到 的 、 不 含 缺 失 值 的 变量 (如 被 试 年 
龄 、 能 力 值 等 ) 的 影响 ,但 不 受 缺 失 数据 自身 的 影 啊 ; 
在 MNAR 机 制 下 ,数据 缺失 的 概率 与 缺失 变量 
号 相 关 ， 如 某 一 问题 设计 的 过 于 敏感 造成 的 缺失 。 

在 心理 教育 测评 中 , 这 三 种 缺失 数据 的 机 制 都 
有 可 能 存在 。Huisman 和 Molenaar (2001) 认 为 ， 测 
评 中 缺失 的 作答 是 由 学 生 无 意 中 报告 的 ,因此 将 测 
评 中 的 缺失 数据 视 为 MCAR 机 制 下 的 缺失 ; 还 有 
研究 者 假设 测评 中 存在 MAR 机 制 ， 因 为 数据 的 缺 
和 失 与 特定 的 个 体 特征 有 关 (de Ayala et al., 2001; 
Finch, 2008) ;还 有 人 研 守 表明 在 某 道 题目 上 数据 的 缺 
失 是 受到 题目 本 喘 特征 的 影响 , 即 存在 MNAR ik 
和 失 机 制 (Shan & Wang, 2020). 
2.3 缺失 数据 的 处 理 方 法 

依据 前 文 综述 ， 本 人 研究 选取 了 常见 且 被 广泛 使 
用 的 传统 方法 ZR 法 (Jang, 2009; Lee et al., 2011)。 
基于 模型 的 缺失 数据 处 理 方法 中 应 用 最 为 广泛 
(Schafer & Graham, 2002; Leacy et al., 2017; Rezvan 
et al.，2015)， 处 理 缺 失 值 效 果 更 具 优 势 (Graham， 
2009; Jeličić et al., 2010; Lin, 2010; Wothke, 2000) 
并 且 适 用 于 二 分 变量 插 补 (Marshall et al., 2010; van 
Buuren, 2018) 的 MI-PMM MI-CART MI-LOGREG. 
BOOT, EM il FIML 这 几 种 方法 。 
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2.3.1 FEAR) 

零 替 换 ， 即 将 缺失 的 作答 视 为 错误 回答 ,用 
“0”" 值 蔡 换 缺失 数据 。 再 将 蔡 换 好 的 完整 数据 集 输 
人 人 模型， 进行 分 析 。 

2.3.2 ”多 重 插 补 (MD 

多 重 搬 补 Rubin，1976) 是 一 种 基于 重复 模拟 的 
缺失 数据 处 理 方法 ，MI 包括 3 个 步骤: 插 补 
(imputation)、 分 析 (analysis) 和 合并 (pooling)。 首 先 ， 
MI 依据 具体 的 插 补 模型 (MI-PMM、MI-CART、 
MI-LOGREG.BOOT) 对 缺失 数据 进行 多 次 插 补 ， 最 
终 得 到 多 个 经 插 补 后 的 完整 数据 (最 好 是 20 个 或 更 
多 ; Graham et al., 2007)。 然 后 依照 模型 (如 线性 模 
型 、 广 义 线性 模型 等 ) 对 这 20 或 更 多 个 完整 数据 集 
进行 分 析 , 依据 Rubin 规则 计算 各 完整 数据 的 参数 
估计 值 ， 最 后 将 参数 估计 最 佳 的 插 补 结果 输出 
(Mazza et al., 2015)。 最 终 输 出 的 插 补 结果 将 作为 完 
整数 据 集 输入 模型 ,进行 分 析 。 

由 于 本 研究 考虑 的 是 二 级 计 分 形式 , 日 具备 局 
部 独立 性 ， 因 此 在 使 用 MI 对 作答 矩阵 进行 插 补 时 ， 
分 别 选择 各 插 补 模型 对 数据 进行 多 次 插 补 (m = 20), 
并 从 插 补 好 的 数据 集中 随机 抽取 一 个 完整 数据 集 
作为 插 补 结果 。MI 系列 方法 中 的 分 类 回归 树 方法 
(Classification and regression trees, MI-CART), 、 预 测 
均值 匹配 (Predictive mean matching, MI-PMM)#ll A 
助 比率 对 数 回 归 (Logistic regression with bootstrap, 
MI-LOGREGBOOT) 均 适用 于 二 分 变量 搬 补 ， 且 在 
处 理 缺 失 数据 时 表现 较 好 (Marshall et al., 2010; van 
Buuren，2018)， 因 此 本 人 研究 主要 选择 了 这 三 种 MI 
模型 。MI 系列 方法 的 具体 公式 和 详细 操作 步骤 可 
参见 van Buuren (2018) 书 中 的 具体 介绍 ,下 面 对 各 
方法 原理 与 基本 步骤 进行 介绍 。 

(1) MI-PMM: PMM 即 预测 均值 匹配 ， 它 根据 
指定 的 回归 模型 计算 缺失 值 的 预测 值 ， 从 而 进行 插 
补 。 已 知 了 为 作答 和 矩阵， 记 了 为 删除 了 中 作答 存在 
缺失 值 的 被 试 后 ,由 所 有 不 含 缺 失 值 被 试 的 作答 数 
据 构 成 的 矩阵 。PMM 大 致 步骤 如 下 : 1) 使 用 了 数 
Hi, 建立 多 元 回归 模型 ,估计 得 到 回归 参数 。2) 对 
第 一 步 中 得 到 的 回归 参数 进行 修正 ， 得 到 一 个 适用 
于 了 中 所 有 被 试 的 回归 模型 ， 并 使 用 这 一 回归 模型 
计算 出 所 有 被 试 的 估计 值 。3) 针 对 每 一 个 存在 缺失 
数据 的 被 试 ,匹配 多 个 估计 值 与 其 估计 值 近 似 且 不 
含 缺 失 数据 的 被 试 ， 构成 捐赠 者 库 ， 从 捐赠 者 库 中 
随机 抽取 数值 蔡 换 缺失 数据 ,实现 对 缺失 数据 的 插 
补 。 此 方法 假设 缺失 值 的 分 布 与 候选 数据 集 相 同 ， 
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并 使 用 已 有 数据 中 非 缺 失 部 分 对 缺失 值 进行 插 补 ， 
从 而 避免 了 无 意义 插 补 的 问题 (例如 ， 里 高 为 负 值 ) 
(van Buuren, 2018)。 

(2) MI-CART: CART 即 分 类 回归 树 ,， 是 一 种 回 
归 与 分 类 技术 。 该 方法 一 般 使 用 递归 划分 法 构建 预 
测 模 型 ， 将 待 处 理 的 所 有 变量 划分 为 尽 可 能 同 质 的 
类 别 ,最 终 形 成 决策 树 , 并 从 与 缺失 作答 相似 的 市 
点 中 随机 抽取 完整 作答 ， 对 缺失 数据 进行 插 补 。 其 
操作 步骤 如 下 : HU) 使 用 递归 法 对 作答 矩阵 中 的 数据 
进行 多 次 切 分 , 模型 将 选择 具有 最 佳 分 裂 和 最 均匀 
子 群 的 切 分 点 作为 最 佳 切 分 点 ， 将 数据 切 分 为 两 个 
子 节 点 。2) 多 次 重复 第 一 步 ， 直至 数据 不 可 再 分 。 
此 时 ， 每 一 个 子 节 点 下 的 数据 均 同 质 ， 经 切 分 得 到 
的 结果 即 为 作答 矩阵 的 分 类 回归 树 。3) 对 每 一 个 缺 
REE, 根据 分 类 回归 树 找 到 它 所 属 的 终端 市 点 ， 
并 从 该 节点 中 随机 抽取 作答 对 缺失 数据 进行 插 补 。 

(3) MI-LOGREG.BOOT : 该 方法 使 用 基于 
Bootstrap 的 贝 叶 斯 逻辑 回归 模型 对 缺失 数据 进行 
插 补 。Bootstrap 法 的 原理 是 以 样本 代表 总 体 ,， 在 样 
本 中 进行 有 放 回 抽样 ， 每 次 重复 抽取 半 个 数据 组 成 
一 个 样本 , 重复 这 一 过 程 多 次 得 到 多 个 样本 ,最 后 
基于 这 些 样本 进行 统计 计算 。MI-LOGREG.BOOT 
通过 贝 叶 斯 逻辑 回归 模型 进行 ， 对 经 bootstrap 法 处 
理 后 的 作答 矩阵 进行 回归 分 析 , 通过 计算 和 比较 拟 
合 所 得 参数 ， 选 取 拟 合 结 果 最 佳 的 数据 对 缺失 值 进 
行 插 补 (van Buuren, 2018). 
2.3.3 ”期 望 最 大 化 算法 (EM) 

EM 算法 是 一 种 通过 计算 极 大 似 然 对 缺失 进行 
处 理 的 迭代 算法 (Dempster et al., 1977)。 此 方法 原 
理 是 认为 存在 一 个 估计 参数 ,与 缺失 数据 相关 且 可 
以 互相 推导 。 因 此 给 定 估计 参数 的 初始 值 ， 即 可 以 
通过 不 断 迭 代 对 缺失 数据 进行 插 补 。 每 一 次 迭代 包 
fa T EXAM A. ERE, 依据 现 有 数据 和 
前 一 次 迭代 所 得 到 的 估计 参数 ,对 缺失 数据 进行 填 
Kb, 并 计算 其 对 数 似 然 函 数 的 条 件 期 望 ; M 步 即 极 
大 化 步 , 用 极 大 化 对 数 似 然 函 数 进一步 确定 估计 参 
数 的 值 ， 并 用 于 下 一 步 迭 代 。, 算 法 在 EE 步 和 M 步 之 
间 不 断 迭 代 ， 直 至 两 次 迭代 之 间 的 参数 变化 较 小 时 
结束 ( 叶 素 静 等 , 2014)。EM 的 具体 公式 和 详细 操 
作 步 又 可 以 参考 Dempster 等 (1977) 人 研究 中 的 具体 
介绍 ,下 面 对 其 原理 与 基本 步骤 进行 介绍 。 定 义 
Yos 为 已 观测 到 的 、 未 缺失 的 数据 ,定义 马 * 为 缺失 
数据 ， 则 含有 缺失 数据 的 作答 和 矩阵 了 = (You Énis) 
EM 法 就 是 使 用 待 佑 参数 6 和 了 并,,， 对 i, 进行 插 
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补 。EM 方法 在 CDA 中 的 实现 过 程 为 : 

1) 首 先 给 定 参数 0 的 初始 值 ，9 是 一 系列 用 于 
定义 了 分 布 的 参数 合集 。 例 如 通过 定义 均值 和 方差 ， 
BIRERE 了 为 正 态 分 布 , 则 此 时 初始 估计 参数 
9 可 记 作 : O=(u, o°) 

DE 步 : IF Ynis 中 的 任 一 缺失 数据 v, 使 用 
第 一 步 给 定 的 9 和 了 并,, ,计算 ,的 条 件 期 望 值 ， 
并 用 这 一 期 望 值 代替 缺失 数据 ， 如 公式 (2) 所 示 。 其 
中 “为 被 试 ,7 为 题目 , t 为 迭代 次 数 。 

y = BO Tap) (2) 

3)M 步 : 使 用 似 然 函数 O 与 经 E 步 处 理 后 的 
作答 矩阵 Y, 计算 最 大 似 然 的 参数 估计 值 ， 如 公式 
(DTR, 并 选取 满足 最 大 似 然 值 的 参数 值 6， 作为 
新 一 轮 迭 代 中 的 参数 估计 值 。 

(6? | 0O, Y) = max(Q(0|0" ,7)) (3) 

4) 不 断 重 复 步 又 2-3 直到 参数 估计 结果 收敛 ， 
例如 前 后 两 次 迭代 之 间 参 数 估计 的 变化 量 : 
oA" | 6, Y)-0(8® 106 Y 小 于 特定 值 
(如 .0001)。 

同 MI 法 相同 , 将 EM 处 理 后 的 完整 数据 集 输 
入 模型 ， 进 行 后 续 的 分 析 。 

2.3.4 ”全 息 极 大 似 然 估计 算法 (FIML) 

与 删除 方法 不 同 , FML 不 排除 缺失 作答 的 情 
况 。 包 括 不 完整 案例 的 观察 分 数 可 以 提高 准确 性 ， 
因为 不 完整 变量 与 其 他 (完整 或 不 完整 ) 变 量 之 间 的 
关联 会 告知 估计 程序 哪些 参数 值 最 有 可 能 (Mazza 
et al., 2015). FIML 使 用 缺失 数据 中 所 有 的 可 用 数 
据 建 立 模型 ， 并 运用 似 然 函数 估计 参数 ， 对 缺失 数 
据 进 行 处 理 (Eekhout et al.，2015)。 例 如 ,在 运用 
FIML 方法 对 包含 缺失 值 的 数据 进行 题目 参数 估计 
时 ,其 似 然 函数 的 计算 只 连 乘 在 该 题目 上 有 作答 的 
数据 的 正确 作答 概率 值 ， 而 未 作答 的 数据 不 参与 计 
Fo 不同 于 其 它 方法 需要 先 搬 补 再 估计 , FIML 仅 需 
要 一 步 ， 就 可 以 同时 实现 缺失 数据 处 理 和 参数 估计 
过 程 ， 因 此 更 加 高 效 (Graham, 2009)。 不 同 于 以 上 几 
种 方法 , 在 本 研究 中 , 使 用 R 中 的 GDINA 包 进 行 
FIML 方法 的 处 理 , FIML 方法 为 GDINA 包 的 默认 
处 理 缺 失 值 方法 ， 即 当 输入 的 作答 矩阵 为 包含 缺失 
数据 的 矩阵 时 ， 软 件 默认 使 用 FIML 方法 进行 处 理 
和 模型 的 分 析 。 


3 模拟 人 研究 


3.1 研究 设计 
为 了 充分 探讨 不 同 缺 失 数据 处 理 方 法 在 CDA 
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中 的 表现 , 本 研究 采用 2x3x3x3x3x6 的 完全 交叉 
实验 设计 ， 共 包含 6 个 自 变 量 ， 其 设置 如 下 所 示 : 
(1) 被 试 数量 : 包括 3 个 水 平 , 200 人 、400 人 和 
1000 人 (Dai, 2017; de la Torre, 2011); 
(2) 题 日 数量 :包括 2 个 水 平 :15 题 和 30 题 (Dai， 
质 


2017); 

(3) 题 日 质量 : 参照 Ma 等 人 (2016) 的 设置 包含 
3 个 水 平 : 高 质量 、 中 等 质量 和 低 质 量 。 题 目 为 低 
质量 时 ,参数 设 定 为 : PO; =la; =0)eU(0.05,0.15), 
P(Y; = laj =1) € U(0.85,0.95); 题目 为 中 等 质量 时 ， 
参数 设 定 为 : PW, = laj =0) ¢U(0.15,0.25), 
P(Y; = lla} =1) €U(0.75,0.85); 题目 为 高 质量 时 , B 
P(Y; = lla} =1) €U(0.65,0.75) 。 P(Y; = lla} =0) 表示 
被 试 i 未 掌握 题目 j 考察 的 所 有 属性 时 ,答对 题目 
的 概率 。P(% =llay =D 表示 被 试 i 掌握 了 题目 j 考 
察 的 所 有 属性 时 , 答对 题目 的 概率 。 其 中 ，7 为 被 
试 i 在 题目 jy 上 的 作答 情况 ，@; 为 在 被 试 原 属性 向 
量 基 础 上 , 仅 保 留 题目 7 所 考察 属性 形成 的 志 塌 属 
性 向 量 。 

(4) 数 据 缺 失 机 制 :包括 3 种 缺失 机 制 : MCAR、 
MAR 和 MNAR (de Ayala et al., 2001; Finch, 2008); 

(5) 数 据 缺 失 率 : 包括 3 个 水 平 : 10%, 20%, 
30% (Dai, 2017); 

(0) 缺 失 数 据 处 理 方法 : ZR. MI-CART 、 
MI-PMM, MI-LOGREG.BOOT, EM 和 FIML 方法 : 

其 中 , O 矩阵 设 定 参见 网 络 版 附录 一 。 
3.2 ”模拟 过 程 

(1) 完 整数 据 生 成 : 被 试 KS 真 值 从 多 元 正 态 分 
布 中 生成 ， 即 g~MVN(0x,>) ， 协 方差 设 定 为 
0.5( 如 下 所 示 )。 被 试 作答 数据 使 用 R 软件 中 GDINA 
包 的 simGDINAO 函 数 生 成 (Ma & de la Torre, 
2020)。 


P(Y; = lla} = 0) € U(0.25,0.35), 


(2) 缺 失 数据 生成 : 缺失 数据 的 生成 参考 de 
Ayala 等 (2001D) 和 Finch (2008) 提 出 的 方法 ， 具 体 的 
生成 过 程 参 见 网 络 版 附录 二 。 

(G3) 缺 失 数据 处 理 : 使 用 R 软件 与 SPSS 26.0 实 
现 。 首 先 , ZR 法 通过 自 编 R 代码 实现 。MI 方法 使 
用 R 软件 中 的 MICE 包 (van Buuren & Groothuis- 
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Oudshoorn，2011) 完 成 。 为 了 保证 处 理 效果 ,人 参照 
Chen 等 (2020) 的 研究 将 MI 插 补 次 数 设 定 为 20 次 。 
其 次 , 在 使 用 EM 方法 插 补 缺失 数据 时 , 我 们 首先 
采用 了 R 软件 中 TestDataImputation 包 中 的 
EMimpute 因数 ,但 在 数据 规模 大 、 和 缺失 比 例 较 高 
( 例 : 1000 人 、30 题 、30% 缺 失 率 ) 时 ，R 软件 无 法 
运行 。 因 此 ,最终 选用 了 SPSS 26.0 进行 EM 插 补 
处 理 。 FIML 方法 通过 R 软件 中 的 GDINA 包 完 成 。 
3.3 ”评价 指标 

参数 估计 精度 评价 指标 为 偏差 Bias、 均 方 根 误 
差 RMSE (Ma & de la Torre, 2016), 计算 见 公 式 (2) 
FIZ ZK (3) 0 


R 2 J 
Bias= ) > > [POW =1|a,)-P(Y, =1|a,)] (4) 


r=] c=] j=l 


SYS PO, =1|a,)-P(Y, =lla)P 


r=] c=] j=l 


RMSE = 
Jx25 xR 


(5) 
Hr, POY, =1|a) 表 示 KS Ha, 的 被 试 答 
对 第 7 题 的 估计 作答 概率 ，Pw (Y, =1|w。 表示 KS 
为 w 的 被 试 答对 第 7 题 的 真实 作答 概率 , R 表示 总 
循环 次 数 , > 表示 当前 循环 次 数 。Bias 和 RMSE 越 
大 ,表明 题目 参数 估计 误差 越 大 。 
被 试 属性 掌握 的 估计 精度 评价 指标 采用 模式 
判 准 率 (Pattern Correct Classification Rate, PCCR), 
计算 见 公式 (4)。 


R I 
S > pm, 
PCCR=- 6. T (6) 
x 


其 中 , 了 为 被 试 总 数 ，pm, =1 表 示 第 r 次 循环 
中 被 试 的 KS 判断 正确 ,反之 表示 判断 错误 。 
3.4 ”模拟 研究 结果 和 讨论 

由 于 MAR 与 MCAR 机 制 下 的 结果 基本 相同 ， 
遂 将 MCAR 的 结果 呈现 于 网 络 版 附录 三 。 
3.4.1 MAR 机 制 的 结果 和 讨论 

(1) 题 目 参 数 佑 计 结 果 与 讨论 

图 1 和 图 2 呈现 了 MAR 机 制 下 题目 参数 的 估 
WAER, FLAG 324 个 条 件 。 随 被 试 数量 和 题目 数 
量 的 增多 ,题目 质量 的 提高 和 缺失 率 的 降低 ， 题 目 
参数 估计 精度 在 提升 。 

整体 来 看 ， 题目 参数 的 估计 偏差 均 较 低 ， 各 方 
法 表现 均 较 好 。 其 中 , EM 法 的 表现 最 好 ， 其 后 依次 
为 MI、FIML 和 ZR 法 。EM 倾向 于 产生 无 偏 估 计 ， 
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图 1 不 同 处理 方 法 下 题目 参数 的 Bias (MAR 机 制 ) 


注 : 横 坐 标 条 件 中 第 


逻辑 回归 和 分 


其 Bias 值 分 布 范围 为 -0.003~0.001, 非常 接近 0 
RMSE 分 布 范 围 为 0.014~0.100, 是 所 有 处 理 方法 中 
值 最 小 的 MI 也 倾 铝 于 产生 无 偏 估计 , 但 其 表现 略 
227 EM, 其 Bias 分 布 范 围 为 -0.003~0.001, RMSE 
分 布 范围 为 0.013~0.101。FIML 倾向 于 高 估 题 日 参 
ži, HE Bias 值 分 布 范围 为 -0.0001~0.008; RMSE 分 
布 范围 为 0.013~0.113。ZR 倾向 于 低估 题目 参数 ， 
其 Bias 值 分 布 范 围 为 -0.019~-0.003， 均 小 于 0; 
RMSE 分 布 范围 为 0.025~0.105。 首 先 , 不 难看 出 ， 
EM 和 MI 处 理 缺 失 数据 后 估计 得 到 的 题目 参数 精 
度 最 高 , 但 其 余 方法 的 表现 也 不 差 , 仅 是 相对 而 言 
略 差 ,因为 其 中 最 大 的 Bias 绝 对 值 及 RMSE 值 仅 为 
0.019 和 0.113。 这 一 结果 表明 , 这些 方法 处 理 缺 失 
数据 均 能 够 得 到 较为 理想 的 题目 参数 估计 精度 。 其 


一 个 字母 表示 题目 质量 (H: 高 质量 , M: 中 等 质量 , L: 低 质 量 )， 第 二 个 数字 表示 缺失 率 (10%, 20%, 30%)。Zero 
Replacement (LKFR, mice-pmm, mice-logreg.boot, mice-cart 依次 代表 了 多 重 持 补 中 的 预测 均值 匹配 ,基于 Bootstrap 的 贝 叶 斯 
> 类 回归 树 法 , EM 代表 期 望 最 大 化 法 , FIML 代表 了 全 息 极 大 似 然 估计 法 。 


次 ,MI 系列 中 的 三 种 方法 的 Bias 和 RMSE 相似 性 
较 高 ， 因 此 若 要 选用 MI 方法 ，MI 系列 中 的 任 一 方 
法 均 可 。 最 后 , 被 试 数量 越 多 , 题目 质量 越 高 ， 基 
于 模型 的 方法 表现 越 好 ,而 ZR 的 表现 则 相反 。 这 
表明 与 传统 插 补 方法 相 比 ， 基 于 模型 的 方法 更 适合 
用 于 规模 较 大 的 测验 情景 。 出现 该 结果 的 原因 可 能 

是 基于 模型 的 方法 使 用 了 数据 中 未 缺失 的 作答 信 
息 进 行 建 模 ， 数 据 质量 越 好 ， 规 模 越 大 ， 就 越 能 从 
已 有 的 作答 数据 中 获得 有 效 信息 ， 从 而 提升 了 处 理 
后 的 数据 质量 , 使 得 估计 结果 更 好 。 而 ZR 法 将 未 
作答 信息 全 部 用 零 值 奉 换 ， 这 种 替换 会 增 大 作答 数 
a 扭曲 真实 数据 结构 ， 当 数据 集 越 
K, Hi 就 越 大 ,最 终 导 致 估计 精度 下 降 。 因 
此 ， pees 大 规模 测验 中 ,应 该 使 用 基于 模 
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图 2 不 同 处 理 方法 下 题目 参数 的 RMSE (MAR 机 制 ) 
型 的 择 补 方法 。 参数 估计; 后 两 者 属于 “两 步 式 ” 操 作 ， MARN 


(2) PCCR 估计 结果 与 讨论 

图 3 呈现 了 MAR 机 制 下 模式 判 准 率 的 估计 结 
R, FLL 324 个 条 件 。 随 着 被 试 和 题目 数量 的 增 
多 , 题目 质量 的 提高 和 缺失 率 的 降低 ,各 方法 的 模 
式 判 准 率 均 会 增 大 。 

总 体 而 言 , EM 和 FIML 表现 最 好 ， 其 后 依次 为 
MI #il ZR. 446, EM 法 的 PCCR 在 多 数 条 件 下 最 高 ， 
其 范围 为 0.144~0.855。,FIML 和 EM 相似 ,其 PCCR 
的 范围 为 0.123~0.866。 值 得 注意 的 是 ，FIML 估计 
PCCR 时 表现 较 好 ,尽管 它 在 估计 题目 参数 时 不 是 
表现 最 好 的 方法 , 例如 在 MAR 机 制 下 , FIML 与 表 
现 最 佳 的 EM 法 之 间 的 Bias 差 值 最 大 仅 为 0.008, 
RMSE 差 值 最 大 仅 为 0.014, 尤其 在 题目 数量 较 大 、 
题目 质量 较 高 时 ， 其 表现 尤 佳 。 且 FIML 法 的 操作 
HE EM 和 MI 法 更 加 便捷 ， 前 者 属于 “一 步 式 ” 操 作 ， 
即 无 需 填 充 未 作答 数据 ,， 仅 用 已 作答 数据 即 可 进行 


失 数 据 插 补 出 来 ， 之 后 再 使 用 诊断 模型 进行 参数 佑 
计 。 因 此 ， 出 于 便捷 性 考虑 ， 可 将 FIML T 
方法 。 其 次 ,MI ERME P, H MI 系列 中 的 三 种 
方法 的 PCCR 曲线 相似 度 也 较 高 ， 其 PCCR 的 范围 
为 0.114~0.838, 略 低 于 FIML 和 EM 法 , 但 高 于 ZR 
(PCCR 范围 为 0.119~0.819)。 

3.4.2 MNAR 机 制 的 结果 与 讨论 

(1) 题 目 参数 结果 和 讨论 

图 4 和 图 5 呈现 了 MNAR 机 制 不 同 条 件 下 是 
目 参 数 的 估计 结果 ， 共 包含 324 个 条 件 。 随 被 试 和 
题目 数量 的 增多 ,题目 质量 的 提高 和 缺失 率 的 降低 ， 
各 方法 的 题目 参数 估计 精度 均 在 提升 。 

与 MAR 类 似 ，MNAR 机 制 下 题目 参数 的 Bias 
绝对 值 和 RMSE 整体 较 低 ， 表 明 各 方法 表现 均 较 
好 。 其 中 ，EM 表现 最 好 ， 其 后 依次 为 ZR, MI 和 
FIML. EM 倾向 于 高 估 题 目 参 数 ， 其 Bias 分 布 范围 


o o 


Se Ne g\e o| Se NE o\ 
SP a OS ep 
D Dr OD Dy wy’ AZ WL NV #7 
—s— Zero Replacement —=— mice pmm 
mice cart —e— EM FIML 


条 件 _15 题 400 人 


Se 


o 


rl 
S ny 


SE NO ols NO Ne NE Se 
SR 

Ql LD YZ < wy’ AZ V4 NY Y? 

—s— Zero Replacement 

mice_cart —e— EM FIML 


=—mice pmm 


条 件 _15 题 1000 人 


Ne NO Ne SO SNe NB g\s o| 
人 
QL QD YD’ wy’ ay’ $7 V4 V? Y 
—s— Zero Replacement —=— mice_pmm 
mice_cart 一 e 一 EM *— FIML 


mice logreg.boot —s—Zero Replacement 一 = 


Imice logreg.boot 


一 上 一 Zero Replacement 


mice logreg.boot —s—Zero Replacement 


RABE 等 : 认 知 诊断 缺失 数据 处 理 方法 的 比较 : A 2 A HDS KIA TS 433 


条 件 15 题 200 人 条 件 30 题 200 人 


Bias 


呈 呈 一 一 二 二 二 一 二 
SCRNWAUD IQ 


Se Ss\s NE SG Se NE Sl NO Ss\ 
S S S S S S S S S 
Soe ae 
mice pmm mice_logreg.boot 
mice cart +— EM FIML 
条 件 30 题 400 人 


o 


Se Se Se Se Se Se Se 总 
S" S28" oS ae! ge” aS cs 
7 Y 


mice_logreg.boot 


=—mice pmm 


mice_cart 。— EM FIML 
条 件 30 题 1000 人 


Q Se 


oS 
人 心 / 


mice pmm mice_logreg.boot 
mice cart —e— EM *— FIML 


Se Se Se Se ob gl Se 


o 
op S S 小 


S S S 
N 95 N la’ it) N 
QD’ YD YD < < Wy’ Wr Y 


图 3 不 同 处 理 方法 下 题目 参数 的 PCCR (MAR 机 制 ) 


为 -0.003~0.010，RMSE 分 布 范围 为 0.015~0.109。 

ZR 倾向 于 低估 题目 参数 ， 其 Bias 分 布 范 围 为 
—0.011~—0.001, RMSE 分 布 范 围 为 0.017~0.099 。 

MI 倾向 于 高 估 题 目 ， 其 Bias 分 布 范围 为 -0.0005~ 
0.010, RMSE 分 布 范围 为 0.015~0.107. FIML 倾向 
于 高 估 题 目 参数 ,其 Bias 值 分 布 范 围 为 0.002~ 
0.016, RMSE 分 布 范围 为 0.014~0.115。 结 果 显 示 : 

首先 , 与 MAR 机 制 相 比 , MNAR 机 制 下 EM 和 MI 
法 的 Bias 绝对 值 增 大 ， 由 无 偏 估计 变 为 高 估 题 目 
参数 ，ZR 法 的 Bias 绝对 值 和 RMSE 247), 表现 变 
好 。 其 次 , ZR 的 表现 和 MI 相似 但 不 如 MI 稳定, € 
主要 受 题 目 质量 的 影响 ,例如 , 在 30 题目 400 人 、 
低 题目 质量 、 缺 失 率 为 30% 时 ，ZR 法 的 RMSE 在 
所 有 方法 中 最 小 ， 而 相同 条 件 下 高 题目 质量 时 ，ZR 
的 RMSE 在 所 有 方法 中 最 大 。 同 MAR 与 MCAR 
机 制 类 似 , EM 的 总 体 偏差 较 小 ， 表现 较 好 ， 且 随 着 
被 试 量 的 增多 表现 变 得 更 好 。 这 也 和 前 文 的 结果 一 


致 , 题目 质量 越 高 ，ZR 表现 越 差 . 基于 模型 的 方法 
表现 越 好 。MI 系列 中 的 三 种 方法 的 表现 较为 相似 。 

(2) PCCR 的 结果 和 讨论 

图 6 呈现 了 在 MNAR 机 制 下 题目 参数 的 估计 
结果 ， 共 包含 324 个 条 件 。 随 被 试 和 题目 数量 的 增 
多 , 题目 质量 的 提高 和 缺失 率 的 降低 ,各 方法 的 模 
式 判 准 率 均 增 大 。 

在 30 题 、1000 A, AA H MEHR 30% 时 ， 
PCCR 最 高 的 ZR 法 与 最 低 的 MLLOGREGBOOT 法 
相差 0.134， 因 此 ,与 题目 参数 的 估计 不 同 ,估计 被 
试 KS 时 ， 各 方法 间 的 差异 较 大 。 具 体 而 言 EM, 
FIML 和 ZR 并 列 为 表现 最 好 的 方法 MI 次 之 。 其 
中 , EM 法 的 PCCR 范围 为 0.128~0.857, FIML 的 范 
围 为 0.121~0.870, ZR 的 范围 为 0.111~0.863。MI 和 
另 三 种 方法 相 比 表 现 略 差 但 差异 不 明显 ， 其 PCCR 
范围 为 0.105~0.843。 首 先 , 综合 题目 参数 和 PCCR 
的 结果 ， 相 较 于 MAR 和 MCAR 机 制 , ZR Æ MNAR 
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机 制 下 表现 更 好 ， 这 一 现象 的 原因 可 能 是 : MNAR 
机 制 下 , 缺失 数据 对 应 的 原始 作答 为 “0”( 即 答 错 ) 
的 可 能 性 更 高 ， 即 认为 缺失 的 产生 是 由 于 被 试 无 法 
作答 ,与 被 试 的 知识 掌握 状态 有 关 ; 而 ZR 方法 正 
好 使 用 “0 替换 缺失 值 ， 同 样 将 缺失 看 作 是 由 于 被 
试 不 会 作答 产生 的 。 因 此 ,使 用 “0” 蔡 换 缺 失 数 据 的 
ZR 法 正 符合 MNAR 的 缺失 原理 ，ZR 法 在 MNAR 
机 制 下 的 表现 更 好 。 其 次 , 与 MAR 机 制 类 似 ， 几 乎 
在 所 有 条 件 下 , MI 的 系列 方法 对 被 试 KS A AE 
数 估计 结果 均 较 为 相似 ,这 是 因为 MI 系列 方法 均 
基于 MI 框架 进行 缺失 数据 插 补 。 


4 ”实证 研究 


41 ”研究 数据 

为 进一步 探讨 不 同 缺 失 值 处 理 方法 的 生态 效 
E, 本 研究 参考 Shan 和 Wang (2020) 的 实证 研究 ， 
使 用 了 PISA2015 年 基于 计算 机 测评 的 数学 测验 数 
据 作为 实证 数据 ， 主 要 原因 为 : (1) 缺 失 比例 合适 
能 够 展现 出 不 同 缺 失 值 处 理 方法 之 间 的 差异 。 若 缺 
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aoe 不 同 缺失 值 处 理 方法 得 到 的 效果 可 能 

会 很 明显 ; 缺失 率 较 大 时 (如 30%)， 所 有 的 缺 
此 时 的 比较 也 没有 任何 
意义 。(2) 具 备 已 标定 好 的 Q HR, ey 于 大 型 测 
iy, 结果 可 靠 。 数 据 包含 了 9 道 题目 ,这 些 题目 在 
PISA2015 中 的 题 号 分 别 为 CM033Q01, CM474Q01, 
CM155Q01, CM155Q04, CM411Q01, CM411Q02, 
CM803Q01, CM442Q02 和 CM034Q01, 题目 作答 
结果 均 为 二 分 变量 。 这 些 题 目 共 考 察 了 4 个 属性 : 
区 别 与 联系 (w)、 数 量 (w )、 空 间 与 形状 (ws ) 和 不 
定性 与 数据 (w4 )。 实 证 O 和 矩阵 参考 了 Shan 和 Wang 
(2020) 的 研究 ， 参见 网 络 版 附录 四 。 本 人 研究 选择 了 
多 米 尼 加 共 和 国 的 735 名 被 试 进行 分 析 , 被 试 作答 
结果 中 , 0 表示 作答 错误 , 1 表示 作答 正确 , 5~9 表示 
作答 缺失 。 该 数据 集 的 缺失 比率 在 各 题目 上 的 分 
布 从 0~24.08% 不 等 ,总 缺失 率 为 14.02%, 缺失 比 
例 适 中 。 使 用 模拟 研究 中 的 六 种 方法 对 该 数据 集 
中 的 缺失 数据 进行 处 理 ， 并 采用 GDINA 模型 进行 
估计 。 
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图 5 不 同 处 理 方法 下 题 日 参数 的 RMSE(MNAR 机 制 ) 


4.2 ”评价 指标 

由 于 实证 数据 中 的 KS 和 题目 参数 真 值 未 知 ， 
无 法 使 用 模拟 人 研究 的 评价 指标 ， 因此, 采用 以 下 几 
个 评价 指标 : 1) 相 对 拟 合 指 标 : 偏差 (Deviance)、 
赤 池 信息 准则 (Akaike information Criterion, AIC; 
Akaike，1974) 和 贝 叶 斯 信息 准则 (Bayesian information 
criterion, BIC; Schwarz, 1978)。2) 绝 对 拟 合 指标 : 
Limited-information statistic M, 和 root mean square 
error of approximation (RMSEA,) (Liu et al., 2016). 
3) 其 他 指标 : 题目 参数 估计 标准 误 (Standard Error, 
SE) 和 相关 性 (Correlation, Cor). 

各 指标 中 , Deviance, AIC 和 BIC 值 越 小 ， 数 据 
与 模型 拟 合 效果 越 佳 ,表明 经 该 方法 处 理 的 缺失 值 
效果 更 好 。M, 和 RMSEA, 都 是 衡量 模型 与 数据 的 
拟 合 程度 的 指标 ， 这 两 个 指标 越 小 ,表明 模型 拟 合 
结果 越 好 。 此 外 ,， 对 于 RMSEA,, Liu 等 (2016) 认 为 ， 
0.045 是 模型 良好 拟 合 的 标准 , 0.03 是 最 佳 拟 合 的 标 
准 。SE 指 模型 估计 所 得 题目 参数 的 标准 误 ，SE 越 
小 , 表明 题目 参数 估计 结果 的 离散 程度 越 小 ,数据 


起 稳定。 在 估计 SE 时 , 采用 不 同 的 信息 矩阵 会 得 
到 不 同 精 度 的 结果 (Liu et alL，2019)。 本 研究 采用 
GDINA 包 中 的 经 验 交 叉 相 乘 方法 计算 SE, 该 方法 
的 优点 是 操作 便捷 ， 且 估计 参数 时 表现 较 好 , 在 
CDM 研究 中 也 较 常 使 用 (de la Torre, J, 2009; Na 
jera et al., 2021; Xu et al., 2020)。 相关 性 指 被 试 在 测 
验 上 的 原始 得 分 与 其 估计 的 属性 掌握 数量 之 间 的 
相关 性 ,该 指标 的 原理 是 , 被 试 属性 掌握 数量 越 多 ， 
其 原始 得 分 理应 越 高 ( 郭 舌 ， 周 文 杰 , 2021)。 使 用 某 
一 种 方法 对 缺失 值 进行 处 理 后 , 得 到 的 相关 性 指标 
越 高 ,说 明 缺 失 值 处 理 效 果 越 好 。 
4.3 ”实证 研究 结果 与 讨论 

实证 研究 估计 得 到 的 各 指标 结果 如 表 1 (相关 
性 和 相对 拟 合 指标 ) 和 表 2 (绝对 拟 合 指标 ) 所 示 。 就 
相关 性 指标 而 言 EM 的 相关 性 最 高 ， 为 0.809， 表 
明 这 种 方法 处 理 缺 失 数据 的 效果 最 佳 ; 其 次 是 
FIML 和 ZR 法 ,相关 性 分 别 为 0.808 和 0.804, (AE 
们 的 相关 性 仅 略 低 于 EM, 表明 它们 处 理 缺 失 数据 的 
效果 基本 相似 ; 之 后 依次 为 MI-LOGREG.BOOT、 
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jh 条 件 _15 题 200 人 
一 上 一 Zero Replacement —=— mice pmm mice_logreg.boot 
mice_cart +— EM — FIML 
图 
R1 实证 研究 结果 1 
参考 指标 
人 gic BIC SE 
ZR 0.804 4345.98 4411.98 4563.77 0.256 
MI-PMM 0.793 4633.08 4648.78 4800.58 0.243 
MI-LOGREG. 0.800 4170.47 4347.45 4499.24 0.263 
BOOT 
MI-CART 0.756 4628.56 4694.79 4846.59 0.268 
EM 0.809 4343.13 4409.13 4560.93 0.258 
FIML 0.808 4169.45 4235.45 4387.25 0.260 
表 2 实证 研究 结果 2 
绝对 拟 合 指标 
处 理 方法 
2 df p RMSEA, 90%CI 
ZR 16.69 12 0.162 0.023 [0,0.047] 
MI-PMM 13.81 12 0.313 0.014 [0,0.042] 
MI-LOGREG.BOOT 22.54 12 0.032 0.035 [0.01,0.056] 
MI-CART 22.14 12 0.036 0.034 [0.009,0.056] 
EM 17.19 12 0.143 0.024 [0,0.048] 
FIML 22.64 12 0.031 0.035 [0.01,0.057] 


MI-PMM 和 MI-CART， 相 关 性 分 别 为 0.800、0.793 
和 0.756. Deviance 分 布 范 围 为 4169.45~4633.08, 
AIC 分 布 范 围 为 4235.45~4694.79, BIC 分 布 范 围 为 
4387.25~4846.59。 其 中 , FIML 的 Deviance, AIC 和 
BIC 值 均 最 小 ,， 表明 拟 合 效果 最 好 ,之 后 依次 是 
MI-LOGREG.BOOT EM .ZR .MI-CART 和 MI-PMM 
法 ,SE 指标 分 布 范围 为 0.243~0.268， 其 中 MI-PMM 
法 的 SE 最 小 , 之 后 依次 是 ZR, EM, FML, 
MI-LOGREG.BOOT 和 MI-CART 法 , 表明 MI-PMM 
的 题目 参数 估计 稳定 性 表现 最 好 。 在 绝对 拟 合 指标 
中 , EM, ZR 和 MI-PMM 的 M: EAI p 值 均 大 于 .05， 
表明 对 这 批 实 证 数据 的 拟 合 效果 较 好 ; EM、ZR 和 
MI-PMM 的 RMSEA, 均 小 于 0.03, 表明 其 拟 合 效 果 
更 佳 。 

综合 各 项 指标 (选取 了 每 项 指标 上 表现 最 好 的 
3 种 方法 ， 用 “vw” 表示， 并 呈现 了 各 方法 得 到 “w” 
的 总 数 和 排名 )， 如 表 3 所 示 ,在 各 个 指标 的 表现 上 ， 
EM、FIML、MI-PMM 三 者 均 在 某 一 个 或 多 个 指标 
上 表现 最 好 。 从 表 3 汇总 结果 看 , EM 在 所 有 指标 上 
表现 均 较 好 ,是 最 佳 选择 。ZR 和 FML 方法 次 之 ， 
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表 3 实证 研究 结果 汇总 
参考 指标 v 的 

大 是 着 vw 排序 

Cor -2LL AIC BIC SE p RMESA， 总 数 
ZR Vv ww ww 4 2 
MI-PMM ww v 3 3 
MI-LOGRE 
G.BOOT 3 3 
MI-CART 0 4 
EM ww wwwvwvwv K 7 1 
FIML ww vv vv 4 2 


然后 为 MLPMM .LOGREG.BOOT 和 MI-CART, 该 
结果 与 NMAR 机 制 下 的 实验 结果 类 似 。 实 证 研究 
与 模拟 研究 的 MNAR 机 制 下 得 到 的 结果 很 相似 。 
PISA 作为 大 型 国际 测验 , 十 分 受到 重视 , 被 试 由 
于 个 人 或 环境 原因 退出 测验 的 可 能 性 较 小 ， 由 于 不 
会 作答 而 放弃 造成 作答 缺失 的 可 能 性 较 大 ,这 也 是 
ZR 法 表现 较 好 的 原因 之 一 。 同 时 这 也 与 Shan 和 
Wang (2020) 的 研究 结果 相符 。 她 们 运用 引入 题目 层 
面 的 缺失 数据 机 制 的 CDM 对 阿尔 巴 尼 亚 共 和 国 的 
数据 进行 分 析 ， 发 现 数据 的 缺失 机 制 更 接近 
MNAR 机 制 。 此 外 , MI 系列 方法 在 模拟 研究 中 表现 
相似 , 但 在 实证 研究 中 差异 较 大 , 说 明 选 用 MI 系 
列 方法 时 需要 结合 实际 数据 进行 模型 拟 合 验证 ， 并 
根据 拟 合 结果 进行 选择 。 

综 上 ， 实 证 研究 进一步 文 持 了 模拟 研究 结 
所 探讨 的 缺失 数据 处 理 方法 具有 较 高 的 生态 效 度 。 
5 结论 与 展望 
5.1 研究 结论 

(缺失 数据 会 对 认 知 诊断 估计 产生 影响 ， 缺 
失 率 的 增 大 会 导致 所 有 方法 的 PCCR 和 题目 参数 估 
计 精 度 下 降 。 此 外 ， 随 着 被 试 与 题目 数量 的 减少 和 
题目 质量 的 下 降 所 有 方法 的 PCCR 均 下 降 ，Bias 
绝对 值 和 RMSE 均 上 升 ， 表 现 变 差 。 

(2) 整 体 而 言 ， 所 有 方法 都 能 得 到 较为 精确 的 
题目 参数 估计 值 ， 不 同方 法 间 差 异 不 大 。 其 中 , 在 
MAR/MCAR 机 制 下 , EM 的 表现 最 好 ， 其 后 依次 为 
MI, FIML 和 ZR 法 ; Æ MNAR 机 制 下 , EM 表现 最 
好 ,其 后 依次 为 ZR、MI 和 FIML。 

(3) 舍 计 被 试 KS AY, 不 同方 法 间 PCCR 差异 较 
大 ,MAR/MCAR 机 制 下 , EM 和 FIML 表现 最 好 ， 其 
后 依次 为 MI M ZR; MNAR 机 制 下 , EM, FIML 和 
ZR 并 列表 现 最 好 , MI 次 之 。 

5.2 ”方法 选择 建议 
综合 模拟 与 实证 研究 结果 ,本 研究 建议 首选 
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EM 或 FIML 方法 。 各 方法 中 , EM 在 各 个 指标 上 均 
表现 较 好 ,是 最 推荐 的 方法 。 但 EM 需要 先 搬 补 后 
估计 ， 而 FIML 无 需 揪 补 便 可 估计 ， 且 FIML 得 到 
的 PCCR 也 较 高 ， 尽管 FIML 在 估计 题目 参数 时 表 
现 不 如 其 它 基于 模型 的 方法 ,但 仅 是 相对 而 言 ， 其 
Bias 绝对 值 和 RMSE 也 均 较 小 , 且 与 同 条 件 下 EM 
的 表现 差异 很 小 。 因 此 , 知 出 于 一 步 到 位 的 处 理 角 
度 来 看 ,可 以 优先 考虑 使 用 FIML 进行 缺失 数据 处 
理 。 同 时 , 在 缺失 机 制 为 MAR 或 者 MCAR， 以 及 
测验 长 度 较 短 情况 下 , 研究 者 应 避免 使 用 ZR 法 处 
理 缺 失 值 。 
5.3 ”研究 局 限 及 展望 

本 研究 将 目前 表现 效果 更 好 的 基于 模型 的 缺 
失 数 据 处 理 方法 引入 CDA 中 ,对 不 同 的 缺失 数据 
处 理 方 法 进行 全 面 比较 , 并 提出 了 实践 中 人 处理 缺失 
数据 的 建议 。 但 仍 有 一 些 局 限 ， 如 本 研究 仅 关 注 了 
0-1 计 分 测验 形式 , 未 考虑 多 级 计 分 情况 ， 而 多 级 
计 分 在 现实 中 也 很 常见 ， 且 能 提供 更 加 丰富 的 作答 
信息 。 未 来 研究 可 以 在 多 级 计 分 测验 中 ， 探 究 不 同 
缺失 数据 处 理 方 式 对 估计 结果 的 影响 。 其 次 ,近年 
来 纵向 CDA 受 到 了 人 研究 者 们 的 关注 (Zhang & Wang, 
2018; Kaya & Leita, 2017), 有 是 纵向 CDA 中 也 存在 
数据 缺失 问题 , 因此， 如 何 处 理 纵向 CDA 中 的 缺 
失 数 据 值得 进一步 探究 。 此 外 , 本 研究 使 用 了 经 验 
交叉 相 乘 法 计算 实证 数据 的 题目 参数 标准 误 。 但 一 
些 人 研究 指出 在 估计 题目 参数 标准 误 时 ， 观 察 信 息 和 拢 
阵 及 三 明治 信息 矩阵 也 是 常用 且 有 效 的 方法 ( 刘 疹 
楼 等 , 2016; Liu et al., 2019)。 因 此 ,在 后 续 人 研究 中 
可 以 在 缺失 值 领 域 进一步 对 比 三 种 信息 和 矩阵 的 表 
Wh, 选取 更 适合 的 方法 计算 标准 误 。 最 后 ,本 人 研究 
虽然 对 三 种 缺失 机 制 分 别 进行 了 分 析 , 但 实际 测验 
中 数据 的 缺失 机 制 往 往 不 明确 , 未 来 研究 可 以 进 一 
步 结 合 包含 缺失 机 制 判定 的 CDM(Shan & Wang, 
2020)， 研 究 实 际 测验 情境 下 的 缺失 数据 处 理 模型 。 
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Abstract 

The problem of missing data is common in research, and there is no exception for cognitive diagnostic 
assessment (CDA). Some studies have revealed that both the presence of missing values and the selection of 
different missing data processing methods would affect the results of CDA. Therefore, it is necessary to attach 
more attention to the problem in CDA and choose appropriate methods to deal with it. Although the problem in 
CDA has been explored before, previous studies did not consider multiple imputation (MI) and full information 
maximum likelihood (FIML), which are widely used in the field of missing data analysis. Moreover, previous 
studies neglected the comparison using empirical data and saturation models such as GDINA model. In summary, 
the main purpose of this study are to introduce MI and FIML into CDA, thus making a comprehensive comparison of 
different missing data handling methods, and further putting forward suggestions for handling missing data in 
practice. 

Simulation study considered six factors: (1) Sample size: 200 participants, 400 participants, and 1000 
participants; (2) Test length: 15 test items and 30 test items; (3) Quality of items: high quality, medium quality, 
and low quality; (4) Missing data mechanisms: missing completely at random (MCAR), missing at random 
(MAR), and missing not at random (MNAR); (5) Missing rate: 10%, 20%, and 30%; (6) Missing data handling 
methods: zero replacement (ZR), MI-CART, MI-PMM, MI-LOGREGBOOT, Expectation-Maximization 
algorithm (EM), and FIML. The GDINA model was used, and the analysis process was realized by the GDINA 
package in R software. Secondly, the PISA 2015 computer-based mathematics data were applied to compare the 
practical value of the proposed methods. 

The results of simulation study revealed that: (1) Missing data results in a decrease in estimation accuracy. 
The absolute value of Bias and RMSE both increased and PCCR values of all methods decreased as the sample 
size, test length and the quality of the items decreased and the missing rate increased; (2) When estimating item 
parameters, EM performed best, followed by MI. Meanwhile, FIML and ZR methods were unstable; (3) When 
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estimating the KS of participants, EM and FIML performed best as the missing data mechanism was MAR or 
MCAR. When the missing data mechanism was MNAR, EM, FIML and ZR performed best. The empirical study 
results further supported the simulation research results. It showed that: (1) For all empirical indicators, EM, 
FIML, and MI-PMM perform best on one or more indicators; (2) The results obtained under the empirical study 
and simulation study under the MNAR mechanism are very similar; (3) EM performs well on all indicators, and 
ZR and FIML methods are slightly worse than EM, followed by MI-PMM, LOGREGBOOT and MI-CART. 

In addition, based on the research results, the following suggestions were provided: (1) EM and FIML 
should be the first choice. However, if researchers do not want to get the complete data set, FIML could be used 
as a priority for missing data handling; (2) When the missing data mechanism was MAR or MCAR and the test 
length was not enough, researchers should avoid using the ZR method to deal with missing data. Finally, this 
paper ends with the prospects of future researches: (1) The multilevel scoring situation should also be studied; (2) 
The effectiveness of these methods should be tested in longitudinal research; (3) The performance of more 
methods of information matrix can be further compared in calculating the standard error to handle missing data; 
(4) Future research could focus on the missing mechanisms of data onto the real data. 

Key words cognitive diagnosis, GDINA model, missing data, multiple imputation, maximum likelihood estimation 
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附录 一 : 模拟 研究 Q FER 


表 1 模拟 研究 Q 和 矩阵 ($ 属性 15 BARE) 


题目 
属性 
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 
1 1 0 0 0 0 1 0 0 0 0 1 1 1 1 0 
2 0 1 0 0 0 0 1 0 0 0 1 0 0 0 1 
3 0 0 1 0 0 0 0 1 0 0 0 1 0 0 1 
4 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 
5 0 0 0 0 1 0 0 0 1 1 0 0 1 1 0 
R2 模拟 研究 Q HGS 属性 30 题目 条 件 ) 
题目 
属性 
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 
1 1 0 0 0 0 1 0 0 0 0 1 1 1 1 0 
2 0 1 0 0 0 0 1 0 0 0 1 0 0 0 1 
3 0 0 1 0 0 0 0 1 0 0 0 1 0 0 1 
4 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 
5 0 0 0 0 1 0 0 0 1 1 0 0 1 1 0 
题目 
属性 
17 18 19 20 21 22 23 24 25 26 27 28 29 30 
1 0 0 0 0 0 1 1 1 1 1 1 0 0 0 0 
2 1 1 0 0 0 1 1 1 0 0 0 1 1 1 0 
3 0 0 1 1 0 1 0 0 1 1 0 1 1 0 1 
4 1 0 1 0 1 0 1 0 1 0 1 1 0 1 1 
5 0 1 0 1 1 0 0 1 0 1 1 0 1 1 1 


附录 二 : 生成 缺失 数据 的 具体 步骤 

MCAR 机 制 的 数据 与 其 他 因素 均 无 关 。 首 先 ,将 该 条 件 下 的 总 缺失 率 ( 如 0.1, 0.2 或 0.3) 设 为 每 个 被 试 在 每 道 题目 
上 的 目标 缺失 率 。 然 后 ， 对 每 个 被 试 的 每 一 个 作答 ,都 会 生成 一 个 服从 均匀 分 布 U(0,1) 的 值 ， 并 将 其 与 被 试 的 目标 缺 
失 率 进 行 比较 。 若 这 一 数值 小 于 等 于 目标 缺失 率 , 将 当前 作答 蔡 换 为 缺失 , 反之 则 保留 原始 作答 结果 。 

MAR 机 制 下 缺失 数据 与 已 观测 到 的 变量 有 关 ， 而 与 产生 缺失 的 变量 本 身 无 关 。 首 先 ,为 每 个 被 试 生 成 一 个 服从 
标准 正 态 分 布 W0,1) 的 代理 变量 ， 这 个 变量 在 现实 情景 中 可 能 是 能 力 、 年 龄 、 学 习 程 度 等 ,是 对 缺失 可 能 性 造成 影响 
的 个 体 变量 。 一 般 情况 下 被 试 的 代理 变量 值 越 大 , 在 某 道 题目 上 的 目标 缺失 率 就 越 低 。 其 次 , 根据 生成 的 代理 变量 将 
被 试 划 分 为 六 个 分 数 段 ， 为 每 个 分 数 段 的 被 试 分 配 相应 的 目标 缺失 率 , 保证 代理 变量 得 分 越 大 ,目标 缺失 率 越 小 。 且 
使 所 有 目标 缺失 率 的 平均 值 等 于 该 条 件 的 总 缺失 率 ( 即 0.1、0.2 或 0.3)。 对 每 个 被 试 的 每 一 个 作答 ,再 生成 一 个 服从 均 
匀 分 布 U(0,1) 的 值 ， 并 将 其 与 被 试 的 目标 缺失 率 进行 比较 。 硅 其 小 于 目标 缺失 率 , 将 当前 作答 蔡 换 为 缺失 ， 反 之 不 进 
行 处 理 , 保留 原始 作答 结 

MNAR 机 制 下 缺失 数据 与 缺失 前 被 试 是 否 能 正确 作答 该 题目 有 关 ， 而 与 其 他 条 件 无 关 。 在 完整 数据 基础 上 ， 为 每 
个 作答 分 配 目标 缺失 率 ， 原 始 数据 中 的 错误 作答 有 更 高 的 目标 缺失 率 , 正确 作答 的 被 试 则 有 更 低 的 目标 缺失 率 。 并 使 
所 有 题目 的 目标 缺失 率 的 均值 等 于 该 条 件 下 的 总 缺失 率 ( 即 0.1、0.2 或 0.3)。 例 如 ， 以 一 个 包含 十 位 被 试 的 数据 集 为 例 ， 
如 果 在 完整 数据 中 有 五 位 被 试 对 目标 题目 作答 正确 , 五 位 被 试 作 答 错 误 ， 该 条 件 下 缺失 率 为 0.15, 我 们 向 五 位 作答 错 
误 的 被 试 分 配 0.10 的 缺失 率 ， 向 五 位 作答 正确 的 被 试 分 配 0.20 的 缺失 率 。 对 于 每 一 个 被 试 的 每 一 个 作答 ,都 会 生成 
一 个 服从 均匀 分 布 VODKE, 并 将 其 与 被 试 的 作答 缺失 率 进行 比较 。 硅 均值 小 于 缺失 率 , 将 当前 作答 蔡 换 为 缺失 ， 
反之 不 进行 处 理 , 保留 原始 作 管 结果 。 
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附录 三 : 五 属性 条 件 下 MCAR 机 制 的 结果 
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图 2 不 同 处 理 方法 下 题目 参数 的 RMSE(MCAR 机 制 ) 
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图 3 不 同 处 理 方法 下 题目 参数 的 PCCR(MCAR 机 制 ) 


附录 四 : 实证 研究 Q 和 矩阵 


表 3 实证 研究 Q 和 矩阵 


题目 
CM033Q01 CM474Q01 CMI155Q01 CM155Q04 CM411Q01 CM411Q02 CM803Q01 CM442Q02 CM034Q01 
a 0 0 1 1 0 0 0 0 0 
A> 1 0 0 0 0 0 0 0 1 
A 0 1 0 0 1 0 0 1 0 
Q4 0 0 0 0 0 1 1 0 0 


